N. 13 del 1/9/1998

Il Web che non si vede
di Alessandro Venturi


Ai motori di ricerca sfugge ancora buona parte della Rete. Ecco che cosa ci perdiamo e perché

Un articolo comparso in aprile sulla prestigiosa rivista americana Science ha avuto per molti utenti della Rete una portata rivelatrice quasi messianica. Gli osservatori del mondo di Internet più smaliziati, invece, hanno parlato di scoperta dell'acqua calda. Di che cosa si trattava?

L'articolo era il resoconto di una ricerca effettuata al Nec Research Institute di Princeton. Da essa scaturiva che nessun motore di ricerca copre l'intero Web e che il più potente (all'epoca), Hotbot, arrivava a indicizzarne solo un terzo. Naturalmente, per giungere a questo risultato i ricercatori non hanno contato manualmente tutte le pagine del Web. La loro era una stima derivata da un calcolo molto semplice. Per prima cosa, sono state effettuate oltre 500 ricerche con varie parole chiave nei sei motori di ricerca principali (AltaVista, Excite, Hotbot, Infoseek, Lycos, Northern Light). Ottenuti i risultati, i ricercatori li hanno confrontati, osservando che il numero totale di pagine reperite da almeno un motore era circa tre volte tanto il numero totale di pagine reperite da tutti i motori. Prendendo come riferimento Hotbot, che alla data di svolgimento della ricerca era il motore con il database più ampio (110 milioni di pagine nel dicembre '97), i ricercatori del Nec hanno concluso che il Web contiene circa 320 milioni di url (numero che si ottiene moltiplicando 110 milioni per 2,9). La notizia è ben presto circolata nella rete, cogliendo molti di sorpresa. Alcuni hanno accusato i responsabili dei motori di ricerca di avere tenuto nascosto questo fatto. Nessuno dei motori, tuttavia, è mai stato ufficialmente accreditato della copertura dell'intero Web, anche se bisogna dire che la cosa poteva essere implicitamente desunta dalle affermazioni contenute nei loro siti. Diciamo che si è trattato della tipica situazione "Perché non me lo hai detto? Perché non me lo hai mai chiesto!".

Ma il problema non è nuovo

I frequentatori delle Rete più attenti avevano comunque già ben chiara la situazione. Esattamente un anno prima della pubblicazione dell'articolo su Science, John Pike, webmaster del sito della Federation of American Scientists, scrisse al sito Zdnet, reo di avere divulgato uno studio sui motori di ricerca che taceva una verità fondamentale che egli aveva scoperto. Solo 600 delle 6.000 pagine contenute nel sito curato da Pike erano state infatti indicizzate da Altavista. Pike allegò la lettera di protesta da lui inviata ai responsabili del motore di ricerca della Digital, e la replica ufficiale da parte del responsabile capo, Louis Monier. Questi aveva risposto che si, AltaVista non era esaustivo, ma più che altro per colpa del fatto che esistono numerose pagine "sfuggenti", come per esempio frame, documenti cgi, shopping basket, script e così via; e che, comunque, già 600 su 6.000 era un buon numero. Ovviamente la risposta non accontentò Pike, che se non altro ebbe la soddisfazione di aver sollevato la questione, costringendo Altavista a dichiarare apertamente qualcosa che avrebbe preferito rimanesse poco noto.

A distanza di un anno, Science ha riaperto dunque la questione, spingendo i navigatori a chiedersi perché i motori di ricerca non cercano l'intero Web, e se ciò sia veramente importante. Entrambe le domande non hanno una risposta univoca, e per capire bene il perché bisogna andare con ordine, partendo da come funziona un motore di ricerca.

E come funziona?

Ogni qualvolta ci si collega al sito di un motore di ricerca e si esegue una richiesta per parole chiave, evidentemente il motore non esegue una ricerca in tempo reale. Esso consulta un proprio database, generalmente situato negli Stati Uniti (ma molti motori hanno dei siti mirror in altri continenti), che contiene un indice composto da decine di milioni di url (indirizzi di siti Web) e una serie di informazioni relative al contenuto delle pagine corrispondenti agli url. In un certo senso, è come se il database contenesse un "Bignami" del Web accessibile in modo ultrarapido, tanto è vero che le ricerche in genere richiedono pochi secondi. Questo database viene aggiornato in due modi: tramite l'inserimento di nuovi url su segnalazione degli utenti, e soprattutto mediante un software automatico (detto spider o crawler) che, a partire dagli url già memorizzati, percorre di continuo in lungo e in largo il Web seguendo le catene di link ipertestuali alla ricerca di nuove pagine. Spider infatti, in inglese, significa ragno, e Web ragnatela; a differenza dei ragni in carne e ossa (si fa per dire), quelli virtuali non producono le ragnatele, ma si limitano a percorrerle, all'inseguimento dell'incessante inserimento di nuovi siti. Inoltre, gli spider tornano a intervalli regolari nei siti già visitati, registrando eventuali modifiche. Per quanto iperattivi, gli spider dei vari motori non ce la fanno però a tenere testa allo sviluppo continuo della ragnatela digitale, essendo la loro velocità minore della velocità di espansione del Web. Questa è la causa principale della limitatezza dei motori di ricerca. Oltre a questo limite intrinseco, vi sono altre cause che contribuiscono a estendere lo scarto fra dimensioni del Web e dei database dei motori. Ecco le principali:

1) Alcuni siti impediscono volontariamente agli spider di accedere, utilizzando un'opzione concessa dai motori stessi

2) Alcuni siti, limitando l'accesso agli abbonati, possono involontariamente finire col bloccare anche gli spider

3) Alcune pagine contengono solo oggetti non indicizzati dai motori, come suoni o applicazioni Java

4) La maggior parte dei motori non è in grado di seguire i link contenuti nei frame.

Che cosa cambia per chi naviga

Quali sono le conseguenze pratiche di avere due terzi del Web di fatto invisibili? La più evidente è che, in un certo senso, parte dell'informazione è di fatto perduta. Questo può essere spiacevole per chi non riesce a trovare quanto cercato ma getta un'ombra, a livello generale, sull'efficienza del World Wide Web come risorsa informativa mondiale. Paradossalmente, l'eccesso di informazione ne rende problematico l'accesso.

Si potrà obiettare che, dopo tutto, non vi è bisogno di milioni di pagine quando una notevole quantità di informazione è presente nei primi venti o trenta hit forniti dai motori di ricerca. Non si tiene conto, con tale ragionamento, che non è detto che l'informazione più rilevante sia effettivamente contenuta nelle pagine meglio classificate. Il vero problema, a pensarci bene, si sposta dunque dalla completezza dei motori di ricerca alla loro capacità di scovare l'informazione più utile.



Altri Articoli Correlati
  • Glossario
  • Archiviare tutta Internet? di M. C.
  • Top Web - Tanta musica e video di Michelle Berard


  • CategoriaSottocategoria
    Software funzionale e di produttivita'Internet Publishing e browsing


    Aziende Citate
    ALTAVISTA DIGITAL EQUIPMENT CORP. MAYNARD, MA
    EXCITE
    HotBot. Wired Digital
    INFOSEEK INCORPORATION
    LYCOS INCORPORATED
    NORTHERN LIGHT

    top


    © Mondadori Informatica S.p.A. -1998
    Tutti i diritti di proprietα letteraria e artistica riservati